curl --request POST \
--url https://apigw.mka1.com/api/v1/llm/chat/completions \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '
{
"model": "meetkai:functionary-urdu-mini-pak",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"temperature": 0.7,
"max_tokens": 100
}
'{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1704067200,
"model": "meetkai:functionary-urdu-mini-pak",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "The capital of France is Paris."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}Deprecado: Usa la API de Respuestas (/api/v1/llm/responses) en su lugar. Punto de finalización de chat compatible con OpenAI, diseñado para ser utilizado con las bibliotecas de clientes oficiales de OpenAI (Python, Node.js, etc.). Soporta tanto solicitudes de streaming como no streaming configurando el parámetro stream. Este punto de finalización maneja la solicitud/respuesta directamente y devuelve respuestas formateadas en el estándar de OpenAI. Usa esto al integrar con el código existente del cliente de OpenAI. Nota: El manejador real está registrado a nivel del servidor Bun para un rendimiento óptimo con el formato de streaming del SDK de OpenAI.
curl --request POST \
--url https://apigw.mka1.com/api/v1/llm/chat/completions \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '
{
"model": "meetkai:functionary-urdu-mini-pak",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"temperature": 0.7,
"max_tokens": 100
}
'{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1704067200,
"model": "meetkai:functionary-urdu-mini-pak",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "The capital of France is Paris."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Parámetros de solicitud para crear una finalización de chat. Basado en la API de Finalizaciones de Chat de OpenAI.
ID del modelo a utilizar. Puedes usar el formato proveedor:model o simplemente el nombre del modelo con un proveedor predeterminado.
1Una lista de mensajes que comprende la conversación hasta ahora. Se requiere al menos un mensaje.
1Show child attributes
Una lista de herramientas que el modelo puede llamar. Utilice esto para proporcionar definiciones de funciones que el modelo pueda invocar.
Show child attributes
Controles qué herramienta (si la hay) es llamada por el modelo. 'ninguna' significa que el modelo no llamará a ninguna herramienta. 'automático' significa que el modelo puede elegir. 'requerido' obliga a realizar una llamada a la herramienta.
Si se establece, los deltas de mensajes parciales se enviarán como eventos enviados por el servidor. Nota: Este campo es ignorado por el punto final de transmisión, utilizado únicamente por puntos finales de clientes compatibles con OpenAI.
Cuántas opciones de completado de chat generar para cada mensaje de entrada. El valor predeterminado es 1.
1 <= x <= 9007199254740991El número máximo de tokens que se pueden generar en la finalización del chat. La longitud total de los tokens de entrada y los tokens generados está limitada por la longitud del contexto del modelo.
1 <= x <= 9007199254740991¿Qué temperatura de muestreo usar, entre 0 y 2? Valores más altos como 0.8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0.2 la harán más enfocada y determinista.
0 <= x <= 2Una alternativa al muestreo con temperatura, llamada muestreo por núcleos, donde el modelo considera los resultados de los tokens con masa de probabilidad top_p. Así que 0.1 significa que solo se consideran los tokens que comprenden el 10% superior de la masa de probabilidad.
0 <= x <= 1Número entre -2.0 y 2.0. Los valores positivos penalizan los nuevos tokens en función de su frecuencia existente en el texto hasta ahora, disminuyendo la probabilidad de que el modelo repita la misma línea textualmente.
Número entre -2.0 y 2.0. Los valores positivos penalizan los nuevos tokens según si aparecen en el texto hasta ahora, aumentando la probabilidad del modelo de hablar sobre nuevos temas.
Si se especifica, el sistema hará un esfuerzo máximo para muestrear de manera determinística. No se garantiza el determinismo, pero la misma semilla debería devolver típicamente resultados similares.
-9007199254740991 <= x <= 9007199254740991Hasta 4 secuencias donde la API dejará de generar más tokens. El texto devuelto no contendrá la secuencia de parada.
Un objeto que especifica el formato que el modelo debe generar. Establecer en { 'type': 'json_object' } habilita el modo JSON.
Show child attributes
Si devolver las probabilidades logarítmicas de los tokens de salida. Si es verdadero, devuelve las probabilidades logarítmicas de cada token de salida devuelto en el contenido del mensaje.
Un entero entre 0 y 20 que especifica el número de tokens más probables para devolver en cada posición de token, cada uno con una probabilidad logarítmica asociada. logprobs debe establecerse en verdadero si se utiliza este parámetro.
0 <= x <= 20Un identificador único que representa a su usuario final, lo que puede ayudar a supervisar y detectar abusos. También se utiliza para el seguimiento de uso y análisis.
Opciones para la respuesta de transmisión. Solo establece esto cuando configures stream: true.
Show child attributes
Si habilitar la llamada a funciones en paralelo durante el uso de la herramienta.
Restringe el esfuerzo en el razonamiento para los modelos de razonamiento. Menor esfuerzo resulta en respuestas más rápidas y menos tokens de razonamiento. Valores soportados: 'ninguno', 'mínimo', 'bajo', 'medio', 'alto', 'muy alto', o nulo.
none, minimal, low, medium, high, xhigh Cuando es verdadero, la puerta de enlace analiza la complejidad de la solicitud y enruta automáticamente entre variantes cuantizadas, MoE y densas de la familia de modelos solicitada.
Respuesta de finalización de chat exitosa. Devuelve JSON para no transmisión (stream=false) o eventos enviados por el servidor para transmisión (stream=true).
Representa una respuesta de finalización de chat de la API.
Un identificador único para la finalización del chat
El tipo de objeto, siempre 'chat.completion'
La marca de tiempo de Unix (en segundos) de cuándo se creó la finalización del chat.
-9007199254740991 <= x <= 9007199254740991El modelo utilizado para la finalización del chat
Una lista de opciones de finalización de chat. Puede haber más de una si n es mayor que 1.
Show child attributes
Estadísticas de uso para la solicitud de finalización
Show child attributes
Esta huella digital representa la configuración del backend con la que se ejecuta el modelo. Puede usarse junto con el parámetro de solicitud seed para entender cuándo se han realizado cambios en el backend que podrían afectar el determinismo.
¿Esta página le ayudó?